ICML 2025 | 从联合空间到文本空间:测试时增强跨模态检索新范式
语义冗余:联合空间的全局对齐会把与语义无关的底层视觉因素一并拉近,淹没真正有用的语义线索。例如雪地纹理、树枝线条、水面反光、舞台灯光等,检索时易出现“背景相似但语义不对”的假阳性;在视频场景中,也会出现时序冗余。粒度错配:图像/视频天然具有“无限粒度”,而弱标
语义冗余:联合空间的全局对齐会把与语义无关的底层视觉因素一并拉近,淹没真正有用的语义线索。例如雪地纹理、树枝线条、水面反光、舞台灯光等,检索时易出现“背景相似但语义不对”的假阳性;在视频场景中,也会出现时序冗余。粒度错配:图像/视频天然具有“无限粒度”,而弱标
今年 ICML Outstanding Paper “COLLABLLM: From Passive Responders to Active Collaborators” 把从被动到主动的人机协作推到台前,展示了让大模型主动澄清意图、规划多轮协作的训练框架,
多模态大模型(MLLM)在高层次视觉理解与推理任务上展现出惊艳能力。然而,如果你仔细观察,就会发现一个的事实:它们在一些看似简单、直观、人类幼儿都能轻松完成的任务中,却频频「翻车」。
传统的图像生成流程包含两个主要组成部分:一个将图像压缩为潜在表示的标记器(tokenizer),以及一个学习生成新标记序列的生成模型。这篇由麻省理工学院和Meta FAIR的Beyer等人撰写的论文挑战了这一范式,通过证明高度压缩的一维标记器无需单独训练的生成
在大语言模型(LLM)加速进入法律、医疗、金融等高风险应用场景的当下,“安全对齐”不再只是一个选项,而是每一位模型开发者与AI落地者都必须正面应对的挑战。然而,如今广泛采用的对齐方式,往往只是让模型在检测到风险提示时机械地回复一句“很抱歉,我无法满足你的请求”
24 个月的无病生存期(DFS)率为74.2%,高瑞哲® 用于经一线系统性治疗后缓解的外周T细胞淋巴瘤(PTCL)患者维持治疗具有良好的抗肿瘤疗效和安全性客观缓解率(ORR)高达84.2%,DZD8586针对经BTK抑制剂和BTK降解剂治疗的慢性淋巴细胞白血病
琶洲实验室、华南理工大学联合推出关键上下文感知注意力机制(CCA-Attention),实现超长文本的高效上下文建模。在 128K 超长序列上下文建模任务中,CCA-Attention 的推理速度是标准自注意力机制的 7.9 倍,同时键值缓存(KV Cache
智象未来团队提出全新层级自回归生成范式 Hierarchical Masked Autoregressive models (Hi-MAR),有效解决自回归图像生成中结构失真问题。该研究已被 ICML 2025 收录,并在多个图像生成任务中取得领先性能。
在图像生成技术的最新进展中,智象未来团队提出了一种名为Hi-MAR(Hierarchical Masked Autoregressive models)的创新层级自回归生成范式,这一成果成功吸引了国际机器学习会议ICML 2025的青睐,并被正式收录。Hi-M
该工作第一作者为中国人民大学高瓴人工智能学院硕士生程传奇,目前于蚂蚁技术研究院实习,其主要研究领域为多模态大模型,蚂蚁技术研究院副研究员关健为共同第一作者。
该工作第一作者为中国人民大学高瓴人工智能学院硕士生程传奇,目前于蚂蚁技术研究院实习,其主要研究领域为多模态大模型,蚂蚁技术研究院副研究员关健为共同第一作者。
该工作第一作者为中国人民大学高瓴人工智能学院硕士生程传奇,目前于蚂蚁技术研究院实习,其主要研究领域为多模态大模型,蚂蚁技术研究院副研究员关健为共同第一作者。